人脸识别已被证明是最成功的技术之一,并影响异质域。由于基于卷积的架构,深入学习在计算机愿景任务中被证明是最成功的。自深远学习的出现以来,人脸识别技术的准确性大幅增加。在本文中,调查了一些最有影响力的面部识别系统。首先,本文概述了一般面部识别系统。其次,调查涵盖了各种网络架构和培训损失,这具有实质性的影响。最后,纸质涉及用于评估面部识别系统的能力的各种数据库。
translated by 谷歌翻译
The evolution of wireless communications into 6G and beyond is expected to rely on new machine learning (ML)-based capabilities. These can enable proactive decisions and actions from wireless-network components to sustain quality-of-service (QoS) and user experience. Moreover, new use cases in the area of vehicular and industrial communications will emerge. Specifically in the area of vehicle communication, vehicle-to-everything (V2X) schemes will benefit strongly from such advances. With this in mind, we have conducted a detailed measurement campaign with the purpose of enabling a plethora of diverse ML-based studies. The resulting datasets offer GPS-located wireless measurements across diverse urban environments for both cellular (with two different operators) and sidelink radio access technologies, thus enabling a variety of different studies towards V2X. The datasets are labeled and sampled with a high time resolution. Furthermore, we make the data publicly available with all the necessary information to support the on-boarding of new researchers. We provide an initial analysis of the data showing some of the challenges that ML needs to overcome and the features that ML can leverage, as well as some hints at potential research studies.
translated by 谷歌翻译
Differentiable Search Indices (DSIs) encode a corpus of documents in the parameters of a model and use the same model to map queries directly to relevant document identifiers. Despite the strong performance of DSI models, deploying them in situations where the corpus changes over time is computationally expensive because reindexing the corpus requires re-training the model. In this work, we introduce DSI++, a continual learning challenge for DSI to incrementally index new documents while being able to answer queries related to both previously and newly indexed documents. Across different model scales and document identifier representations, we show that continual indexing of new documents leads to considerable forgetting of previously indexed documents. We also hypothesize and verify that the model experiences forgetting events during training, leading to unstable learning. To mitigate these issues, we investigate two approaches. The first focuses on modifying the training dynamics. Flatter minima implicitly alleviate forgetting, so we optimize for flatter loss basins and show that the model stably memorizes more documents (+12\%). Next, we introduce a generative memory to sample pseudo-queries for documents and supplement them during continual indexing to prevent forgetting for the retrieval task. Extensive experiments on novel continual indexing benchmarks based on Natural Questions (NQ) and MS MARCO demonstrate that our proposed solution mitigates forgetting by a significant margin. Concretely, it improves the average Hits@10 by $+21.1\%$ over competitive baselines for NQ and requires $6$ times fewer model updates compared to re-training the DSI model for incrementally indexing five corpora in a sequence.
translated by 谷歌翻译
尽管最近的自动文本识别取得了进步,但在历史手稿方面,该性能仍然保持温和。这主要是因为缺乏可用的标记数据来训练渴望数据的手写文本识别(HTR)模型。由于错误率的降低,关键字发现系统(KWS)提供了HTR的有效替代方案,但通常仅限于封闭的参考词汇。在本文中,我们提出了一些学习范式,用于发现几个字符(n-gram)的序列,这些序列需要少量标记的训练数据。我们表明,对重要的n-gram的认识可以减少系统对词汇的依赖。在这种情况下,输入手写线图像中的vocabulary(OOV)单词可能是属于词典的n-gram序列。对我们提出的多代表方法进行了广泛的实验评估。
translated by 谷歌翻译
牡蛎在海湾生活生态系统中起着关键作用,被认为是海洋的生命过滤器。近年来,牡蛎礁经过商业过度收获造成的重大破坏,需要保存以维持生态平衡。该保存的基础是估计需要准确的牡蛎检测的牡蛎密度。但是,用于准确的牡蛎检测系统需要大量数据集获得,这是水下环境中一项昂贵且劳动密集型的任务。为此,我们提出了一种新颖的方法,可以数学上对牡蛎进行建模并在模拟中渲染牡蛎的图像,以使用最小的真实数据来提高检测性能。利用我们的合成数据以及用于牡蛎检测的真实数据,与仅使用牡蛎网络仅使用真实数据相比,我们获得了高达35.1%的性能。我们还将最先进的工作提高了12.7%。这表明,使用对象的基本几何属性可以帮助成功提高有限数据集上的识别任务准确性,我们希望更多的研究人员对难以实现的数据集采用这种策略。
translated by 谷歌翻译
几何深度学习最近对包括文档分析在内的广泛的机器学习领域引起了极大的兴趣。图形神经网络(GNN)的应用在各种与文档有关的任务中变得至关重要,因为它们可以揭示重要的结构模式,这是关键信息提取过程的基础。文献中的先前作品提出了任务驱动的模型,并且没有考虑到图形的全部功能。我们建议Doc2Graph是一种基于GNN模型的任务无关文档理解框架,以解决给定不同类型文档的不同任务。我们在两个具有挑战性的数据集上评估了我们的方法,以在形式理解,发票布局分析和表检测中进行关键信息提取。我们的代码可以在https://github.com/andreagemelli/doc2graph上自由访问。
translated by 谷歌翻译
基于机器学习的恶意软件检测技术依赖于恶意软件的灰度图像,并且倾向于根据灰色图像中纹理的分布对恶意软件进行分类。尽管机器学习技术显示出的进步和有希望的结果,但攻击者可以通过生成对抗样本来利用漏洞。对抗样本是通过智能手工制作并向输入样品添加扰动来生成的。大多数基于软件的对抗性攻击和防御。为了防御对手,基于机器学习和灰度图像的现有恶意软件检测需要对对抗数据进行预处理。这可能会导致额外的开销,并可以延长实时恶意软件检测。因此,作为替代方案,我们探索了基于RRAM(电阻随机访问记忆)对对手的防御。因此,本文的目的是解决上述关键系统安全问题。上述挑战是通过展示提出的技术来设计安全和健壮的认知系统来解决的。首先,提出了一种新的检测隐形恶意软件的技术。该技术使用恶意软件二进制图像,然后从同一图像中提取不同的功能,然后在数据集中使用不同的ML分类器。结果表明,基于提取的功能,该技术在区分恶意软件类别中成功。其次,我演示了对抗性攻击对具有不同学习算法和设备特征的可重新配置RRAM-NEUROMORMORMORMORMORMORMORORMORMORORMORMORMORORMORMORORMORMORORMORMORORMORMORORMORMORORMORMORORMORORMORORMORORMORORMORORMORORMORORMORMOROROMORMORORMORORMORORITIC的影响。我还提出了一种集成解决方案,用于使用可重新配置的RRAM体系结构来减轻对抗攻击的影响。
translated by 谷歌翻译
该底漆是为了提供终身学习不同方面的详细摘要。我们从第2章开始,该第2章提供了终身学习系统的高级概述。在本章中,我们讨论了终身学习中的突出场景(第2.4节),提供8介绍,一个由不同终身学习方法组成的高级组织(第2.5节),列举Desiderata为理想的终身学习系统(第2.6节),讨论如何讨论如何讨论终身学习与其他学习范式有关(第2.7节),描述用于评估终身学习系统的常见指标(第2.8节)。对于那些毕生学习并希望在不关注特定方法或基准的读者中,本章更有用。
translated by 谷歌翻译
以决策为中心的学习(DFL)是为下游优化任务量身定制预测模型的范式,该任务使用其预测以更好地执行该特定任务。与DFL相关的主要技术挑战是,它需要能够通过优化问题进行区分,这由于不连续的解决方案和其他挑战很难。过去的工作主要通过手工制作特定于任务的替代物来解决这个问题,这些替代品可以在区分时提供信息丰富的梯度。但是,需要为每个新任务进行手工替代的需要限制了DFL的可用性。此外,通常无法保证产生的替代物的凸度,因此,训练使用它们的预测模型会导致局部优势较低。在本文中,我们完全消除了代孕,而是学习捕获特定于任务信息的损失功能。据我们所知,我们的方法是第一种完全替代以决策为中心学习的优化组成部分,自动学习的损失。我们的方法(a)仅需要访问可以解决优化问题并因此可以推广的黑盒甲骨文,并且(b)可以通过构造传播,因此可以轻松地优化。我们对文献中三个资源分配问题进行评估,发现我们的方法在没有考虑到所有三个领域的任务结构,甚至是文献中手工制作的代理人的情况下都优于学习的方法。
translated by 谷歌翻译
从视力估算的距离估计对于无数机器人应用,例如导航,操纵和计划是基础。受哺乳动物的视觉系统的启发,凝视着特定物体,我们开发了两个新颖的限制,涉及我们称为$ \ tau $ -constraint和$ \ phi $ -constraint的涉及时间接​​触,加速和距离(移动)相机在仅使用一小部分图像时有效,准确地估算深度。我们通过两个实验成功地验证了所提出的约束。第一个使用单眼摄像机和惯性测量单元(IMU)在轨迹估计任务中应用两个约束。我们的方法的平均轨迹误差降低了30-70%,而运行25美元$ \ times $和6.2 $ \ times $ $ $ \ times $的速度分别比流行的视觉惯性探测方法VINS-MONO和ROVIO。第二个实验表明,当约束用来带有反馈的反馈副本时,所得的闭环系统的特征值是对应用控制信号的缩放的不变性。我们认为这些结果表明$ \ tau $和$ \ phi $约束的潜力是多种机器人应用的强大和有效算法的基础。
translated by 谷歌翻译